0
本文作者: 周蕾 | 2020-05-09 12:56 | 專題:金融聯(lián)邦學(xué)習(xí)公開課 |
聯(lián)邦學(xué)習(xí)作為新一代人工智能基礎(chǔ)技術(shù),正在滲透到AI商用瓶頸的根源,通過解決數(shù)據(jù)隱私與數(shù)據(jù)孤島問題,重塑金融、醫(yī)療、城市安防等領(lǐng)域。
近兩年,在楊強教授等世界級專家的聯(lián)合推動下,國內(nèi)外諸多科技巨頭,均已開始搭建聯(lián)邦學(xué)習(xí)的研究與應(yīng)用團隊。
三年時間過去,國內(nèi)已經(jīng)出現(xiàn)聯(lián)邦學(xué)習(xí)、共享智能、知識聯(lián)邦、聯(lián)邦智能和異步聯(lián)邦學(xué)習(xí)等多個相關(guān)研究方向。
花開五朵,各表一枝。
今天,雷鋒網(wǎng)《AI金融評論》將對這五大方向進行詳細梳理,一覽國內(nèi)聯(lián)邦學(xué)習(xí)發(fā)展現(xiàn)狀。
聯(lián)邦學(xué)習(xí)從某種程度上講,與微眾銀行掛上了等號。
聯(lián)邦學(xué)習(xí)這一研究分支,正是在微眾銀行首席人工智能官楊強教授團隊和其領(lǐng)導(dǎo)的IEEE聯(lián)邦學(xué)習(xí)標準制定委員會的推動下,成為當(dāng)今全球人工智能產(chǎn)學(xué)兩界最受關(guān)注的領(lǐng)域之一。
今年4月,微眾銀行人工智能部、電子商務(wù)與電子支付國家工程實驗室(中國銀聯(lián))、鵬城實驗室、平安科技、騰訊研究院、中國信通院云大所、招商金融科技等多家企業(yè)和機構(gòu)聯(lián)合推出《聯(lián)邦學(xué)習(xí)白皮書V2.0》。
在白皮書中,聯(lián)邦學(xué)習(xí)的最新定義是:在進行機器學(xué)習(xí)的過程中,各參與方可借助其他方數(shù)據(jù)進行聯(lián)合建模。各方無需共享數(shù)據(jù)資源,即數(shù)據(jù)不出本地的情況下,進行數(shù)據(jù)聯(lián)合訓(xùn)練,建立共享的機器學(xué)習(xí)模型。
聯(lián)邦學(xué)習(xí)也根據(jù)數(shù)據(jù)集用戶特征和樣本的不同重疊情況,分為了橫向聯(lián)邦學(xué)習(xí)(即特征重疊較多)、縱向聯(lián)邦學(xué)習(xí)(即樣本重疊較多)和聯(lián)邦遷移學(xué)習(xí)(樣本、特征都重疊較少)。
應(yīng)用實例方面,披露了聯(lián)邦學(xué)習(xí)在車險定價、信貸風(fēng)控、銷量預(yù)測、視覺安防、輔助診斷、隱私保護廣告和自動駕駛方面的解決方案。
2018年,在楊強教授的帶領(lǐng)下,微眾銀行正式開展了聯(lián)邦學(xué)習(xí)研究,內(nèi)部投入百余人,打造了一個覆蓋技術(shù)上下游的聯(lián)邦學(xué)習(xí)團隊,包含研究、學(xué)術(shù)、研發(fā)、商業(yè)、行業(yè)應(yīng)用等多個細分隊伍。
在過往發(fā)表的多篇論文中,微眾AI團隊介紹了聯(lián)邦學(xué)習(xí)思路下針對有安全需求的有監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)、決策樹的具體方法,包括安全的聯(lián)邦遷移學(xué)習(xí)、聯(lián)邦強化學(xué)習(xí)以及 SecureBoost 安全樹模型。
楊強教授也曾在雷鋒網(wǎng)公開課上,以“聯(lián)邦學(xué)習(xí)前沿的研究與應(yīng)用”為題,全面詳盡地講解了聯(lián)邦學(xué)習(xí)如何直面數(shù)據(jù)孤島和隱私保護的雙重挑戰(zhàn)。(課程全文與視頻回顧,已在公眾號《AI金融評論》發(fā)布)
微眾AI團隊透露,他們已申請100+項相關(guān)專利,牽頭推進IEEE聯(lián)邦學(xué)習(xí)國際標準與聯(lián)邦學(xué)習(xí)國家標準制定。
2018年10月,微眾銀行AI團隊向IEEE標準協(xié)會提交了關(guān)于建立聯(lián)邦學(xué)習(xí)標準的提案——「Guide forArchitectural Framework and Application of Federated Machine Learning」(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用標準),并于2018年12月獲批。
值得一提的是,微眾銀行還在2019年2月開源了聯(lián)邦學(xué)習(xí)框架FATE,這也是全球首個工業(yè)級聯(lián)邦學(xué)習(xí)開源框架。業(yè)界中主要的聯(lián)邦學(xué)習(xí)框架,除了FATE以外,目前還有谷歌開源的TensorFlow Federated,和百度開源的PaddleFL。
之所以稱FATE為「工業(yè)級」,在于它能夠解決包括計算架構(gòu)可并行、信息交互可審計、接口清晰可擴展在內(nèi)的三個工業(yè)應(yīng)用常見問題。
FATE項目不僅提供了20多個聯(lián)邦學(xué)習(xí)算法組件、比如 LR、GBDT、CNN 等,覆蓋常規(guī)商業(yè)應(yīng)用場景的建模需求,還特別提供了一站式聯(lián)邦模型服務(wù)解決方案,涵蓋聯(lián)邦特征工程、模型評估、在線推理等。
更重要的是,它給開發(fā)者提供了實現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本,大部分傳統(tǒng)算法都可以經(jīng)過一定改造適配到聯(lián)邦學(xué)習(xí)框架中來。
通過項目開源,對相關(guān)機構(gòu)進行 AI 賦能,提升機構(gòu)自身的建模技術(shù)和能力,為工業(yè)界人員快速開發(fā)應(yīng)用提供一種簡潔有效的解決方案,支持在多場景下的開拓和應(yīng)用采用聯(lián)合共建、平臺服務(wù)等方式進行解決方案落地。
團隊也表示,它具備較強易用性,傳統(tǒng)建模知識和經(jīng)驗都可以復(fù)用,用戶體驗上和傳統(tǒng)建模差異較小?!八峁┑腇ATE-Board建??梢暬δ埽瑯O大提升了聯(lián)邦建模過程的交互體驗,也有效緩解建模技術(shù)人員的缺乏現(xiàn)狀。”
楊強透露稱,微眾也與VMWare深度合作、深度綁定,推出了KubeFATE系統(tǒng),幫助用戶更好地在Cloud上面進行應(yīng)用。
目前這一開源框架已在信貸風(fēng)控、客戶權(quán)益定價、監(jiān)管科技等領(lǐng)域推動應(yīng)用落地。微眾銀行聯(lián)邦學(xué)習(xí)開源平臺FATE技術(shù)負責(zé)人范濤也在雷鋒網(wǎng)公開課上,就FATE的實際應(yīng)用、聯(lián)邦學(xué)習(xí)的跨組織多方聯(lián)合建模等技術(shù)重點進行分享。
除了借助開源平臺打造技術(shù)開放生態(tài),微眾AI團隊也發(fā)起了一個旨在開發(fā)和推廣安全和用戶隱私保護下的 AI 技術(shù)及其應(yīng)用的項目「聯(lián)邦學(xué)習(xí)生態(tài)」(FedAI Ecosystem)。項目在確保數(shù)據(jù)安全及用戶隱私的前提下,建立基于聯(lián)邦學(xué)習(xí)的 AI 技術(shù)生態(tài),使得各行業(yè)更充分發(fā)揮數(shù)據(jù)價值,推動垂直領(lǐng)域案例落地。
在微眾看來,聯(lián)邦學(xué)習(xí)不僅具有加速AI創(chuàng)新發(fā)展、保障隱私信息和數(shù)據(jù)安全的公共價值;從商業(yè)層面上看,聯(lián)邦系統(tǒng)更是一個“共同富?!钡牟呗?,能帶動跨領(lǐng)域的企業(yè)級數(shù)據(jù)合作,催生基于聯(lián)合建模的新業(yè)態(tài)和模式。
螞蟻金服與共享智能
為了機構(gòu)與自身信息協(xié)同等業(yè)務(wù)問題,螞蟻金服從2016年開始投入到共享智能的研究中。在調(diào)研了差分隱私、矩陣變換等多種方案之后,螞蟻金服確定了目前的技術(shù)方向。
當(dāng)前,業(yè)界解決隱私泄露和數(shù)據(jù)濫用的數(shù)據(jù)共享技術(shù)路線主要有兩條。一條是基于硬件可信執(zhí)行環(huán)境(TEE:Trusted Execution Environment)技術(shù)的可信計算,另一條是基于密碼學(xué)的多方安全計算(MPC:Multi-party Computation)。
一些基于上述路線的解決方案也隨之出現(xiàn),比如隱私保護機器學(xué)習(xí)PPML、聯(lián)邦學(xué)習(xí)、競合學(xué)習(xí)、可信機器學(xué)習(xí)等,不同解決方案采用的技術(shù)路線也相互有所重疊。
螞蟻金服集團共享智能部總經(jīng)理周俊在接受InfoQ采訪時表示,螞蟻金服提出的共享智能(又稱:共享機器學(xué)習(xí))就是結(jié)合了TEE與MPC兩條路線,同時結(jié)合螞蟻的自身業(yè)務(wù)場景特性,聚焦于金融行業(yè)的應(yīng)用。
他總結(jié),“共享智能的概念,或者說理念,是希望在多方參與且各數(shù)據(jù)提供方與平臺方互不信任的場景下,能夠聚合多方信息進行分析和機器學(xué)習(xí),并確保各參與方的隱私不被泄漏,信息不被濫用?!?/p>
對于共享智能與聯(lián)邦學(xué)習(xí)的差異,周俊指出,聯(lián)邦學(xué)習(xí)的架構(gòu)是由一臺中心服務(wù)器和多個計算節(jié)點構(gòu)成,中心服務(wù)器會參與到整個計算過程,因此不適用于一些不需要中心服務(wù)器節(jié)點的應(yīng)用場景。
聯(lián)邦學(xué)習(xí)要求原始數(shù)據(jù)不能出域,這也限制了其可以使用的技術(shù)方案;而共享智能是從問題出發(fā),解決方案中不僅包含有類似聯(lián)邦學(xué)習(xí)的有中心服務(wù)器參與計算的模式,也包含完全去中心化的方案,還有基于TEE的共享學(xué)習(xí)方案。
螞蟻的共享智能,可以按照TEE和MPC兩條路線來理解。
基于TEE的共享學(xué)習(xí),底層使用Intel的SGX技術(shù),并可兼容其它TEE實現(xiàn),但傳統(tǒng)的集群化方案在SGX上無法工作,螞蟻金服為此設(shè)計了全新分布式在線服務(wù)基本框架。
在模型訓(xùn)練階段,除了基于自研的訓(xùn)練框架支持了LR和GBDT的訓(xùn)練外,螞蟻金服還借助于LibOS Occlum(螞蟻主導(dǎo)開發(fā),已開源)和自研的分布式組網(wǎng)系統(tǒng),成功將原生Xgboost移植到SGX內(nèi),并支持多方數(shù)據(jù)融合和分布式訓(xùn)練。目前,螞蟻金服正在利用這套方案進行TensorFlow框架的遷移。
基于MPC的共享學(xué)習(xí)框架則分為安全技術(shù)層、基礎(chǔ)算子層,和安全機器學(xué)習(xí)算法,已支持包括LR、GBDT、DNN等頭部算法,后續(xù)一方面會繼續(xù)根據(jù)業(yè)務(wù)需求補充更多的算法,同時也會為各種算子提供更多的技術(shù)實現(xiàn)方案,以應(yīng)對不同的業(yè)務(wù)場景。
更多共享智能的技術(shù)細節(jié),周俊將會在本周六(9號)晚上八點做客雷鋒網(wǎng)公開課,詳解數(shù)據(jù)處理、模型訓(xùn)練預(yù)測到推薦/風(fēng)控等技術(shù)突破,并分享共享智能在工業(yè)界等真實場景應(yīng)用案例的落地經(jīng)驗與挑戰(zhàn)。
周俊表示,隨著技術(shù)和用戶心智的同步發(fā)展,共享智能的大規(guī)模落地將會很快發(fā)生,而最先受益的,是數(shù)據(jù)驅(qū)動的、并且對隱私保護有強需求的金融科技和醫(yī)療科技行業(yè)。
目前,螞蟻金服已經(jīng)在智能信貸領(lǐng)域的多家機構(gòu)落地了標桿型業(yè)務(wù)場景。同時,牽頭在推進共享智能的行業(yè)標準、聯(lián)盟標準、國家標準以及IEEE、ITU-T等國際標準。
今年3月,由螞蟻金服牽頭制定的共享智能聯(lián)盟標準,即《共享學(xué)習(xí)系統(tǒng)技術(shù)要求》,在AIIA聯(lián)盟(中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟)正式發(fā)布。該標準由螞蟻金服與中國聯(lián)通、中國信通院、中國電信、阿里巴巴集團、北京大學(xué)、中和農(nóng)信、百度以及云從科技共同制定。
在國際標準方面上,螞蟻金服已在HOE、ITOT進行標準的建立;在國內(nèi)的CCSA(中國通信標準化協(xié)會)進行了標準的立項;在AIOSS(中國人工智能開源軟件發(fā)展聯(lián)盟)的標準已進入報批稿階段。
平安科技與聯(lián)邦智能
聯(lián)邦學(xué)習(xí)在平安科技落地生根之后,逐漸形成了以聯(lián)邦學(xué)習(xí)為龍頭、為核心,依托聯(lián)邦數(shù)據(jù)部落,實現(xiàn)具備隱私保護的聯(lián)邦推理,以聯(lián)邦激勵機制為紐帶所形成的AI新生態(tài),也就是聯(lián)邦智能。研發(fā)團隊由平安科技副總工程師、聯(lián)邦學(xué)習(xí)技術(shù)部總經(jīng)理王健宗帶領(lǐng)。
王健宗在做客雷鋒網(wǎng)《聯(lián)邦學(xué)習(xí)公開課》時介紹稱,聯(lián)邦數(shù)據(jù)部落是要把每一個數(shù)據(jù)孤島部落化,以此納入聯(lián)邦合作的體系中來。
首先是對來自個人或企業(yè)終端的本地數(shù)據(jù)進行預(yù)處理,其次對訓(xùn)練數(shù)據(jù)特征化處理,再對聯(lián)邦數(shù)據(jù)部落中的數(shù)據(jù)進行質(zhì)量評估,這也是形成聯(lián)邦激勵機制評價指標的重要步驟。
聯(lián)邦數(shù)據(jù)部落依據(jù)數(shù)據(jù)量級、數(shù)據(jù)有效性、數(shù)據(jù)信息密度、數(shù)據(jù)真實性等評價指標,對參與聯(lián)邦學(xué)習(xí)訓(xùn)練的數(shù)據(jù)進行質(zhì)量評估。同時也起到了數(shù)據(jù)監(jiān)測與評估量化的作用。
聯(lián)邦推理,則是一個隱私與安全的鏈路過程,試圖讓模型在應(yīng)用環(huán)節(jié)也能起到保護數(shù)據(jù)隱私的作用。
他強調(diào),聯(lián)邦激勵機制是一個綜合性的閉環(huán)學(xué)習(xí)機制,實際上也融入宏觀經(jīng)濟、管理范疇的一些概念。在平安科技的聯(lián)邦智能生態(tài)中,它所表征的是對貢獻度與收益的評估機制。
“在數(shù)據(jù)資產(chǎn)化的背景下,聯(lián)邦企業(yè)所貢獻的數(shù)據(jù)量級如果足夠大,且質(zhì)量好,會直接為聯(lián)合模型帶來效果增益,而這一效果提升也會映射到參與聯(lián)邦的本地模型上,并為企業(yè)帶來實際的價值與收益。我們會以此量化這一過程中涉及的貢獻度?!蓖踅∽诒硎?。
在聯(lián)邦智能體系的基礎(chǔ)上,平安科技打造了蜂巢平臺。
平臺支持傳統(tǒng)的統(tǒng)計學(xué)習(xí)以及深度學(xué)習(xí)的模型,比如邏輯回歸、線性回歸、樹模型等。在整個模型訓(xùn)練過程中,對梯度進行非對稱加密,整合梯度和參數(shù)優(yōu)化、更新模型。最后加密原始傳輸數(shù)據(jù),實現(xiàn)推理結(jié)果。
目前,蜂巢平臺的產(chǎn)品定位是服務(wù)于營銷、獲客、定價、風(fēng)控、智慧城市和智慧醫(yī)療。
同盾科技與知識聯(lián)邦
同盾科技同樣是從2018年起著手研發(fā)聯(lián)邦學(xué)習(xí),2019年開始搭建知識聯(lián)邦的雛形,由同盾科技人工智能研究院院長李曉林牽頭研發(fā)工作。
知識聯(lián)邦,被定義為統(tǒng)一的安全多方應(yīng)用框架,它支持安全多方查詢、安全多方計算、安全多方學(xué)習(xí)、安全多方推理等多種聯(lián)邦應(yīng)用。本月初,同盾科技也發(fā)布了《知識聯(lián)邦白皮書》,將知識聯(lián)邦的全貌詳細展露。
同盾科技人工智能研究院深度學(xué)習(xí)首席專家李宏宇表示,知識聯(lián)邦在借鑒一些相關(guān)技術(shù)的同時,也具備一定的獨創(chuàng)性,尤其是在認知層和知識層聯(lián)邦都是自主創(chuàng)新的。
以下這張表格也更簡單直接地體現(xiàn)了知識聯(lián)邦與其它技術(shù)領(lǐng)域之間的關(guān)系:
對于知識聯(lián)邦與聯(lián)邦學(xué)習(xí)的區(qū)別和聯(lián)系,李宏宇指出,聯(lián)邦學(xué)習(xí)更關(guān)注的是聯(lián)合建模訓(xùn)練過程,知識聯(lián)邦關(guān)注的是通過聯(lián)邦創(chuàng)建或應(yīng)用提取有價值的知識,其聯(lián)邦的目的可能是建模、預(yù)測、計算、推理。知識聯(lián)邦不僅僅是面向?qū)W習(xí),還包括安全的多方計算和知識推理。
因此,在同盾的定義里,聯(lián)邦學(xué)習(xí)是知識聯(lián)邦的一個子集,專注于數(shù)據(jù)分布的聯(lián)合建模;知識聯(lián)邦關(guān)注的是安全的數(shù)據(jù)到知識的全生命周期的知識創(chuàng)造、管理和使用及其監(jiān)管。
白皮書指出,除了按數(shù)據(jù)特點、對象類型分類,知識聯(lián)邦還可以通過聯(lián)邦階段進行分類:
信息層通過安全多方計算在密文空間上直接進行計算或?qū)W習(xí),進而提取或發(fā)現(xiàn)知識;
模型層聯(lián)邦與傳統(tǒng)的聯(lián)邦學(xué)習(xí)相似,基于模型加密交互共創(chuàng)知識,并實現(xiàn)知識共享;
認知層對同/異構(gòu)數(shù)據(jù)進行認知學(xué)習(xí)之后進行集成或多模態(tài)融合,進而生成復(fù)雜的知識網(wǎng)絡(luò);
知識層對分布的知識進一步學(xué)習(xí)提煉,實現(xiàn)基于知識的表達推理及智能決策。
李宏宇在雷鋒網(wǎng)《聯(lián)邦學(xué)習(xí)公開課》上介紹稱,基于知識聯(lián)邦理論體系,同盾科技推出了工業(yè)級應(yīng)用產(chǎn)品智邦平臺(iBond),通過建立相應(yīng)的任務(wù)聯(lián)盟,解決不同應(yīng)用場景需求。未來平臺也將推進聯(lián)邦數(shù)據(jù)安全交換標準的建立。
目前,知識聯(lián)邦的主要應(yīng)用場景也集中在金融、保險、政務(wù)和醫(yī)療等行業(yè)。
京東數(shù)科與異步聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)在京東數(shù)科手中,則長成了異步聯(lián)邦學(xué)習(xí)這棵大樹,構(gòu)筑成全新的數(shù)據(jù)協(xié)同產(chǎn)業(yè)應(yīng)用生態(tài)。目前,異步聯(lián)邦學(xué)習(xí)由京東數(shù)科AI實驗室首席科學(xué)家薄列峰、金融科技事業(yè)部技術(shù)部智能數(shù)據(jù)負責(zé)人王知博等人帶隊研發(fā)。
王知博在接受InfoQ采訪時表示,京東數(shù)科的聯(lián)邦學(xué)習(xí)之路目前已經(jīng)歷以下兩個階段:
第一個階段,搭建一站式聯(lián)邦學(xué)習(xí)建模平臺,統(tǒng)一管理數(shù)據(jù)源與模型全生命周期,降低聯(lián)邦學(xué)習(xí)模型開發(fā)成本、提高開發(fā)效率。
第二個階段,服務(wù)業(yè)務(wù)落地。目前,聯(lián)邦學(xué)習(xí)在信貸風(fēng)控、智能營銷等方向均有一定應(yīng)用,并在實踐中逐步驗證效果。
異步聯(lián)邦學(xué)習(xí)技術(shù)首先在金融場景落地,助力京東數(shù)科與合作機構(gòu)共建大數(shù)據(jù)風(fēng)控模型。目前京東數(shù)科已經(jīng)構(gòu)建行業(yè)級的聯(lián)合建模解決方案。
目前,其聯(lián)邦學(xué)習(xí)技術(shù)已經(jīng)在雄安新區(qū)“塊數(shù)據(jù)平臺”項目中得到了應(yīng)用,讓交通、規(guī)劃、環(huán)保等各個部門打破數(shù)據(jù)孤島,更高效地溝通、協(xié)同,推動城市“新基建”進入新階段。
近日,京東數(shù)科還宣布成立產(chǎn)業(yè)AI中心,繼續(xù)推動異步聯(lián)邦學(xué)習(xí)的發(fā)展。
在應(yīng)用方面,未來重點是深耕金融業(yè)務(wù)場景,以智能信貸風(fēng)控為例,需要建立聯(lián)邦安全聯(lián)盟,通過合理的生態(tài)機制,引入更多的參與方,從而更全面的刻畫用戶,從而提升模型效果,有效識別信用風(fēng)險,提升業(yè)務(wù)收益。
京東數(shù)科AI實驗室首席科學(xué)家薄列峰表示,異步聯(lián)邦算法在金融領(lǐng)域得到驗證后,也在智能城市領(lǐng)域解決了重量級難題。
例如在雄安新區(qū)智能城市建設(shè)中,為保證全量多模態(tài)的城市數(shù)據(jù)能夠?qū)崟r匯聚、融合、應(yīng)用,“基于聯(lián)邦學(xué)習(xí)的數(shù)字網(wǎng)關(guān)”技術(shù)使得數(shù)據(jù)不出庫的前提下,實現(xiàn)城市各部門數(shù)據(jù)的融合,這一技術(shù)也與異步聯(lián)邦算法有著異曲同工之處。
聯(lián)邦學(xué)習(xí)(微眾銀行)、知識聯(lián)邦和聯(lián)邦智能都已在四月《金融聯(lián)邦學(xué)習(xí)公開課》系列,由各自團隊的領(lǐng)軍人物或研發(fā)主力帶來分享。
今晚八點,本系列正式啟動第二輪,螞蟻金服將披露共享智能更多技術(shù)細節(jié)。后續(xù)將有來自騰訊CSIG、京東數(shù)科、百度、富數(shù)科技等企業(yè)的技術(shù)高管,進一步「拆解」聯(lián)邦學(xué)習(xí)。
掃碼關(guān)注「 AI金融評論 」,進群收看課程直播,和往期課程全部回放。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章